OmadopoÐhsh Dedomènwn Uyhl c Diˆstashc. S.K. Tasoul c Diatmhmatikì P.M.S. Majhmatikˆ twn Upologist n kai twn Apofˆsewn Panepist mio Patr n

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "OmadopoÐhsh Dedomènwn Uyhl c Diˆstashc. S.K. Tasoul c Diatmhmatikì P.M.S. Majhmatikˆ twn Upologist n kai twn Apofˆsewn Panepist mio Patr n"

Transcript

1 OmadopoÐhsh Dedomènwn Uyhl c Diˆstashc S.K. Tasoul c Diatmhmatikì P.M.S. Majhmatikˆ twn Upologist n kai twn Apofˆsewn Panepist mio Patr n Διπλωματική Εργασία Επιβλέπων: Μ.Ν. Βραχάτης Τριμελής Επιτροπή: Μ.Ν. Βραχάτης, Π. Αλεβίζος, Β.Π. Πλαγιανάκος 1

2 Perieqìmena 1 Εισαγωγή 6 2 Ομαδοποίηση Δεδομένων Τι είναι η ομαδοποίηση Διαφορετικά είδη ομαδοποίησης Διαφορετικά είδη ομάδων Αλγόριθμοι ομαδοποίησης K-means DBSCAN Ιεραρχική Ομαδοποίηση Ιεραρχικές Μέθοδοι Διαίρεσης Ανάλυση Πρωτευουσών Συνιστωσών Ο Αλγόριθμος PDDP 21 5 Βελτιώνοντας τον αλγόριθμο PDDP (Improving PDDP) Πως διασπάται η επιλεγμένη ομάδα; Κριτήριο Τερματισμού ipddp Πειραματικά αποτελέσματα Πραγματική Περίπτωση Ι: Δεδομένα έκφρασης γονιδίων Πραγματική Περίπτωση ΙΙ: Ομαδοποίηση εγγράφων Αυτόματος καθορισμός του πλήθους των ομάδων Συμπεράσματα 33 2

3 Katˆlogoc Sqhmˆtwn 1 (α) Αρχικά σημεία. (β) Δύο ομάδες. (γ) Τέσσερις ομάδες. (δ) Εξι ομάδες. [34] Διαφορετικά είδη ομάδων που παρουσιάζονται από σύνολα δισδιάστατων σημείων [34] Τα τέσσερα βήματα του αλγορίθμου K-means από αριστερά προς τα δεξιά για την εύρεση τριών ομάδων [34] Πυκνότητα βασισμένη στο κέντρο [34] Στοιχεία πυρήνα, συνοριακά και θορύβου [34] Δείγμα δεδομένων [34] Ιεραρχική ομαδοποίηση ως δεντρόγραμμα και ως φωλιασμένες ομάδες 19 8 (α) Ενα σύνολο δεδομένων με τις πρωτεύουσες συνιστώσες του. (β) Το ιστόγραμμα των προβολών των δεδομένων στην κύρια πρωτεύουσα συνιστώσα (α) Παραδειγματικό σύνολο δεδομένων με τα αποτελέσματα των αλγορίθμων PDDP, ipddp και k-means αντίστοιχα Τα αποτελέσματα των αλγορίθμων PDDP και ipddp για την ο- μαδοποίηση εγγράφων

4 Katˆlogoc Pinˆkwn 1 Ο βασικός K-means αλγόριθμος Ο βασικός DBSCAN αλγόριθμος Ο αλγόριθμος PDDP Η συνάρτηση FindCutoff(D) για ένα n a μητρώο D Ο τελικός αλγόριθμος ipddp Αποτελέσματα σύμφωνα με τη διασπορά S των τελικών ομαδοποιήσεων για διάφορες μεθόδους Μητρώα συχέτισης για DS IRIS : Το πρώτο, δεύτερο, τρίτο, τέταρτο και πέμπτο στοιχείο κάθε κελιού αντιστοιχεί στους PDDP, DB- SCAN, UKW, k-means, ipddp αντίστοιχα Τα αποτελέσματα των αλγορίθμων PDDP και ipddp για το σύνολο δεδομένων COLON Αποτελέσματα στον αυτόματο καθορισμό του πλήθους των ομάδων. 34 4

5 PerÐlhyh H omadopoðhsh omadopoieð ta dedomèna basismènh mìno se plhroforða pou brðsketai se autˆ h opoða perigrˆfei ta antikeðmena kai tic sqèseic touc. O stìqoc eðnai ta antikeðmena pou brðskontai se mia omˆda na eðnai ìmoia( sqetikˆ) metaxô touc kai diaforetikˆ apì ta antikeðmena twn ˆllwn omˆdwn. 'Oso megalôterh eðnai h omoiìthta( h omoiogèneia) se mia omˆda kai ìso megalôterh eðnai h diaforetikìthta anˆmesa stic omˆdec tìso kalôterh eðnai h omadopoðhsh. Oi mèjodoi omadopoðhshc mporoôn na diakrijoôn se treic kathgorðec, ierarqikèc, diaqwristikèc, kai stic basismènec sth puknìthta. Oi ierarqikoð algìrijmoi mac dðnoun ierarqðec omˆdwn se mða top-down(sugqwneutik ) bottom-up(diaqwristik ) morf. H ergasða aut epikentr netai sthn ierarqik diaqwristik omadopoðhsh. Anˆmesa stouc ierarqikoôc diaqwristikoôc algorðjmouc xeqwrðzoume ton algìrijmo Principal Direction Divisive Partitioning (PDDP). O PDDP qrhsimopoieð thn probol twn dedomènwn sta kôria sustatikˆ thc antðstoiqhc m trac sundiasporˆc. Autì epitrèpei thn efarmog se dedomèna uyhl c diˆstashc. Sthn ergasða aut proteðnetai mia beltðwsh tou algorðjmou Principal Direction Divisive Partitioning. O proteinìmenoc algìrijmoc sunduˆzei stoiqeða apì thn ektðmhsh puknìthtac kai tic mejìdouc basismènec sthn probol me ènan gr goro kai apodotikì algìrijmo, ikanì na antimetwpðsei dedomèna uyhl c diˆstashc. Ta peiramatikˆ apotelèsmata deðqnoun beltiwmènh apìdosh o- madopoðhshc se sôgkrish me ˆllec dhmofileðc mejìdouc. EpÐshc ereunˆtai to prìblhma tou autìmatou kajorismoô tou pl jouc twn omˆdwn pou eðnai polô shmantikì thn omadopoðhsh. 5

6 1 Eisagwg Στην ομαδοποίηση διαιρούμε τα δεδομένα σε ομάδες οι οποίες έχουν κάποιο νόημα, είναι χρήσιμες ή και τα δύο. Αν οι ομάδες με νόημα είναι ο στόχος, τότε οι ομάδες θα πρέπει να έχουν καταλάβει τη φυσική δομή των δεδομένων. Σε κάποιες περιπτώσεις, παρόλα αυτά, η ομαδοποίηση είναι μόνο ένα αρχικό βήμα για άλλους σκοπούς, όπως η σύνοψη των δεδομένων (data summarization). Είτε όταν χρησιμοποιείται για τη κατανόηση είτε για λόγους χρησιμότητας, η ομαδοποίηση μακροπρόθεσμα έχει παίξει σημαντικό ρόλο σε πολλά πεδία: στη ψυχολογία και άλλες κοινωνικές επιστήμες, στη βιολογία, στη στατιστική, στην αναγνώριση προτύπων, στην ανάκτηση πληροφορίας, στην εκμάθηση μηχανών, και στην εξόρυξη δεδομένων. Υπάρχουν πολλές εφαρμογές της ομαδοποίησης σε πρακτικά προβλήματα. Θα δούμε κάποια συγκεκριμένα παραδείγματα, κατανεμημένα σύμφωνα με το αν ο στόχος της ομαδοποίησης είναι η κατανόηση ή η χρησιμότητα. Η ομαδοποίηση για την κατανόηση Οι κλάσεις, ή οι ομάδες αντικειμένων που μοιράζονται κοινά χαρακτηριστικά, παίζουν έναν σημαντικό ρόλο στο πως οι άνθρωποι αναλύουν και περιγράφουν τον κόσμο. Σίγουρα, οι άνθρωποι είναι ικανοί στο να διαιρούν αντικείμενα σε ομάδες και να τοποθετούν συγκεκριμένα αντικείμενα σε αυτές τις ομάδες. Για παράδειγμα, ακόμα και ένα σχετικά μικρό παιδί μπορεί να διαχωρίσει κάποια αντικείμενα σε μια φωτογραφία όπως τα κτίρια, τα οχήματα, οι άνθρωποι, τα ζώα, τα φυτά κ.τ.λ.. Στο πλαίσιο της κατανόησης των δεδομένων, οι ομάδες είναι πιθανές κλάσεις, και η ανάλυση ομάδων είναι η μελέτη των τεχνικών για την αυτόματη εύρεση των κλάσεων. Στη συνέχεια θα δούμε μερικά παραδείγματα. Βιολογία. Οι βιολόγοι για πολλά χρόνια έχουν ασχοληθεί με τη δημιουργία μιας ταξονομίας(ιεραρχική κλασικοποίηση) όλων των ζωντανών οργανισμών. Για αυτό το λόγο δεν μας εκπλήσσει ότι αρκετή από την αρχική δουλειά στην ομαδοποίηση επιχειρεί να δημιουργήσει μια μαθηματική ταξινομία που θα μπορούσε αυτόματα να βρει τέτοιες δομές κλασικοποίησης. Πιο πρόσφατα, βιολόγοι έχουν εφαρμόσει την ομαδοποίηση για να αναλύσουν την τεράστια γενετική πληροφορία που τώρα είναι διαθέσιμη. Για παράδειγμα, η ομαδοποίηση έχει χρησιμοποιηθεί για να βρει ομάδες γονιδίων που έχουν παρόμοιες λειτουργίες. Ανάκτηση πληροφορίας. Το διαδίκτυο περιέχει εκατομμύρια ιστοσελίδες, και το αποτέλεσμα μιας ερώτησης σε μια μηχανή αναζήτησης μπορεί να δώσει χιλιάδες απαντήσεις. Η ομαδοποίηση μπορεί να χρησιμοποιηθεί για να οργανώσει αυτά τα αποτελέσματα σε έναν μικρό αριθμό ομάδων, καθεμιά εκ των οποίων αναφέρεται σε μία πτυχή της ερώτησης. Για παράδειγμα μια αναζήτηση της λέξης ταινίες μπορεί να μας επιστρέψει σαν αποτέλεσμα ιστοσελίδες ομαδοποιημένες σε κατηγορίες όπως κριτικές, trailer, βαθμολογία, αίθουσες προβολής. Κάθε κατηγορία(ομάδα) μπορεί να διασπαστεί σε υποκατηγορίες(υποομάδες), παράγοντας μια ιεραρχική δομή που βοηθά τον χρήστη στην ανάγνωση των αποτελεσμάτων της αναζήτησης. Κλίμα. Η κατανόηση του κλίματος της γης απαιτεί την εύρεση προτύπων στην ατμόσφαιρα και τον ωκεανό. Για αυτό το λόγο, η ομαδοποίηση έχει 6

7 εφαρμοστεί στην εύρεση προτύπων στην ατμοσφαιρική πίεση των πολικών περιοχών και περιοχών του ωκεανού που έχουν μεγάλη επιρροή στη διαμόρφωση του κλίματος. Ψυχολογία και Φαρμακευτική. Μια αρρώστια ή κάποια συμπτώματα έχουν πλήθος παραλλαγών. Η ομαδοποίηση μπορεί να χρησιμοποιηθεί για την α- ναγνώριση των διάφορων υποκατηγοριών. Για παράδειγμα, η ομαδοποίηση έχει χρησιμοποιηθεί για την αναγνώριση διαφορετικών ειδών κατάθλιψης. Επιχειρήσεις. Οι επιχειρήσεις συλλέγουν πλήθος πληροφοριών για τους υ- πάρχων ή πιθανούς πελάτες τους. Η ομαδοποίηση μπορεί να χρησιμοποιηθεί στο να χωρίσει τους πελάτες σε μικρό αριθμό ομάδων για επιπλέον ανάλυση και για καθορισμό διαφημιστικών δραστηριοτήτων. Ομαδοποίηση για λόγους χρησιμότητας Μερικές τεχνικές ομαδοποίησης χαρακτηρίζουν κάθε ομάδα σύμφωνα με ένα πρότυπο ομάδας, για παράδειγμα ένα αντικείμενο που είναι αντιπροσωπευτικό των άλλων αντικειμένων της ομάδας. Αυτά τα πρότυπα των ομάδων μπορούν να χρησιμοποιηθούν ως βάση για ένα πλήθος τεχνικών ανάλυσης δεδομένων. Ετσι, στα πλαίσια της χρησιμότητας, η ομαδοποίηση είναι η μελέτη τεχνικών που βρίσκουν τα πιο αντιπροσωπευτικά πρότυπα ομάδων. Περίληψη. Πολλές τεχνικές ανάλυσης δεδομένων, όπως η οπισθοδρόμηση ή η PCA, έχουν πολυπλοκότητα χρόνου ή χώρου τάξεως O(m 2 ) ή μεγαλύτερη (όπου m είναι το πλήθος των αντικειμένων), για αυτό το λόγο, δεν είναι πρακτικές για μεγάλα σύνολα δεδομένων. Παρόλα αυτά, αντί να εφαρμόζουμε τον αλγόριθμο σε ολόκληρο το σύνολο δεδομένων, μπορούμε να τον εφαρμόσουμε σε ένα μικρότερο σύνολο δεδομένων που αποτελείται από πρότυπα ομάδων. Ανάλογα με τον τύπο της ανάλυσης, το πλήθος των προτύπων, και την ακρίβεια με την οποία τα πρότυπα αναπαριστούν τα δεδομένα, τα αποτελέσματα μπορεί να είναι συγκρίσιμα με αυτά που θα είχαμε αν είχαν χρησιμοποιηθεί όλα τα δεδομένα. Συμπίεση. Τα πρότυπα ομάδων μπορούν επίσης να χρησιμοποιηθούν για συμπίεση δεδομένων. Πρακτικά, δημιουργείτε ένας πίνακας που περιέχει τα πρότυπα της κάθε ομάδας. Για παράδειγμα κάθε πρότυπο αντιστοιχεί σε έναν ακαίρεο αριθμό (ταμπέλα) που είναι η θέση του στον πίνακα. Κάθε αντικείμενο αναπαριστάται από την ταμπέλα του προτύπου που σχετίζεται με την ομάδα που ανήκει. Αυτός ο τύπος συμπίεσης συνήθως εφαρμόζεται σε δεδομένα ήχου, εικόνας, ή video, όπου (1) πολλά αντικείμενα είναι σχετικά όμοια μεταξύ τους, (2) κάποια απώλεια πληροφορίας είναι αποδεκτή και (3) μια ουσιαστική μείωση στο μέγεθος των δεδομένων είναι επιθυμητή. Αποδοτικότητα στην εύρεση κοντινότερων γειτόνων. Η εύρεση των κοντινότερων γειτόνων μπορεί να απαιτεί τον υπολογισμό της ανά δύο απόστασης ανάμεσα σε όλα τα σημεία. Συχνά οι ομάδες και τα πρότυπα τους μπορούν να βρεθούν αρκετά πιο αποδοτικά. Αν τα αντικείμενα είναι σχετικά κοντά στο πρότυπο της ομάδας τους, τότε μπορούμε να χρησιμοποιήσουμε τα πρότυπα για να μειώσουμε το πλήθος των υπολογισμών αποστάσεων που χρειάζονται για να βρούμε τους κοντινότερους γείτονες ενός αντικειμένου. Δηλαδή, αν δύο πρότυπα ομάδων είναι μακριά, τότε τα αντικείμενα στην αντίστοιχη ομάδα 7

8 δεν μπορούν να είναι κοντινότεροι γείτονες μεταξύ τους. Άρα, για να βρούμε τους κοντινότερους γείτονες ενός αντικειμένου αρκεί να υπολογίσουμε την απόσταση που έχει με τα αντικείμενα των κοντινών ομάδων, όπου το πόσο κοντά είναι δύο ομάδες μετριέται από την απόσταση που έχουν τα πρότυπα τους. 2 OmadopoÐhsh Dedomènwn Στη συνέχεια θα αναφερθεί κάποιο απαραίτητο υπόβαθρο για τις τεχνικές ομαδοποίησης. Αρχικά αναλύεται περαιτέρω η ομαδοποίηση, ενώ στη συνέχεια θα επικεντρωθούμε σε ένα συγκεκριμένο τύπο ομαδοποίησης 2.1 Ti eðnai h omadopoðhsh Η ομαδοποίηση ομαδοποιεί τα δεδομένα βασισμένη μόνο σε πληροφορία που βρίσκεται σε αυτά η οποία περιγράφει τα αντικείμενα και τις σχέσεις τους. Ο στόχος είναι τα αντικείμενα που βρίσκονται σε μια ομάδα να είναι όμοια(ή σχετικά) μεταξύ τους και διαφορετικά από τα αντικείμενα των άλλων ομάδων. Οσο μεγαλύτερη είναι η ομοιότητα(ή η ομοιογένεια) σε μια ομάδα και όσο μεγαλύτερη είναι η διαφορετικότητα ανάμεσα στις ομάδες τόσο καλύτερη είναι η ομαδοποίηση. Σε πολλές εφαρμογές, η έννοια της ομάδας δεν είναι καθορισμένη επαρκώς. Για να κατανοήσουμε καλύτερα την δυσκολία του να αποφασίσουμε τι αποτελεί μια ομάδα, παρατηρούμε την εικόνα (1), όπου βλέπουμε 20 σημεία και τρεις διαφορετικούς τρόπους που μπορούμε να τα χωρίσουμε σε ομάδες. Το σχήμα του κάθε σημείου μας δείχνει σε πια ομάδα ανήκει. Στις εικόνες (1.β) και (1.δ) τα δεδομένα χωρίζονται σε 2 και 6 ομάδες αντίστοιχα. Παρόλα αυτά, ο εμφανής διαχωρισμός των δύο μεγαλύτερων ομάδων σε τρεις υποομάδες μπορεί απλά να είναι κατασκεύασμα της ανθρώπινης όρασης. Επίσης, μπορεί να μην είναι παράλογο να πούμε ότι τα σημεία σχηματίζουν 4 ομάδες, όπως παρατηρούμε στην εικόνα (1.γ). Αυτή η εικόνα μας δείχνει πως ο ορισμός μίας ομάδας είναι αμφιλεγόμενος και ο σωστός ορισμός εξαρτάται από τη φύση των δεδομένων αλλά και από τα επιθυμητά αποτελέσματα. (α) (β) (γ) (δ) Σχήμα 1: (α) Αρχικά σημεία. (β) Δύο ομάδες. (γ) Τέσσερις ομάδες. (δ) Εξι ομάδες. [34] Η ομαδοποίηση σχετίζεται με άλλες τεχνικές που χρησιμοποιούνται για να χωρίζουν τα δεδομένα σε ομάδες. Για παράδειγμα, η ομαδοποίηση μπορεί να θεωρηθεί 8

9 ως μία μορφή κλασικοποίησης καθώς δημιουργεί μια ταμπελοποίηση αντικειμένων που το καθένα έχει την ταμπέλα της κλάσης που ανήκει. Παρόλα αυτά, βάζει αυτές τις ταμπέλες βασισμένη μόνο στα δεδομένα. Σε αντίθεση, η κλασικοποίηση είναι ελεγχόμενη. Για παράδειγμα, ένα νέο αντικείμενο που δεν έχει ταμπέλα παίρνει ταμπέλα χρησιμοποιώντας ένα μοντέλο που έχει αναπτυχθεί από αντικείμενα με γνωστές ταμπέλες. Για αυτό το λόγο, η ομαδοποίηση πολλές φορές αναφέρεται ως μη ελεγχόμενη κλασικοποίηση. Οταν ο όρος κλασικοποίηση συνήθως αναφέρεται στην ελεγχόμενη κλασικοποίηση. Επίσης, ενώ οι όροι κατάτμηση και τμηματοποίηση μερικές φορές χρησιμοποιούνται ως συνώνυμα της ομαδοποίησης, αυτοί οι όροι συνήθως χρησιμοποιούνται για προσεγγίσεις μακριά από τα παραδοσιακά όρια της ομαδοποίησης. Για παράδειγμα, ο όρος τμηματοποίηση συχνά χρησιμοποιείται σε τεχνικές που χωρίζουν γραφήματα σε υπογραφήματα και για αυτό δεν συνδέεται ισχυρά με την ομαδοποίηση. Η κατάτμηση συχνά αναφέρεται στον χωρισμό των δεδομένων σε ομάδες χρησιμοποιώντας απλές τεχνικές. Για παράδειγμα, μια εικόνα μπορεί χωριστεί σε τμήματα (segments) χρησιμοποιώντας μόνο την ευαισθησία των pixel και το χρώμα, ή οι άνθρωποι μπορούν να χωριστούν σε ομάδες βασισμένες στο μισθό τους. Εν τούτοις, κάποια δουλειά στην τμηματοποίηση γραφημάτων και στην κατάτμηση εικόνας και αγοράς σχετίζεται με την ομαδοποίηση. 2.2 Diaforetikˆ eðdh omadopoðhshc Μια ολόκληρη συλλογή από ομάδες συχνά αναφέρεται ως ομαδοποίηση. Σε αυτή την ενότητα διακρίνονται διάφορα είδη ομαδοποίησης. Η ιεραρχική(hierarchical) έναντι της τμηματικής(partitional), η αποκλειστική (exclusive) έναντι της επικαλυπτώμενης (overlapping) έναντι της (fuzzy), και η πλήρης έναντι της μερικής. Ιεραρχική(hierarchical) έναντι Τμηματικής(partitional) Η πιο πολυσυζητημένη διάκριση ανάμεσα στους τύπους της ομαδοποίησης είναι για το αν το σύνολο των ομάδων είναι ιεραρχικό ή τμηματικό. Η τμηματική ομαδοποίηση είναι απλά ένας διαχωρισμός του συνόλου δεδομένων σε μη επικαλύπτοντα υποσύνολα (ομάδες), έτσι ώστε κάθε αντικείμενο ανήκει σε ακριβώς ένα υποσύνολο. Αν τα πάρουμε ξεχωριστά κάθε σύνολο ομάδων στην εικόνα 1 είναι μία τμηματική ομαδοποίηση. Αν επιτρέψουμε στις ομάδες να έχουν υποομάδες, τότε έχουμε μία ιεραρχική ομαδοποίηση, η οποία αποτελείται ένα σύνολο ομάδων που είναι οργανωμένο στη μορφή ενός δέντρου. Κάθε κόμβος(ομάδα) στο δέντρο (εκτός από τους κόμβους φύλλα) είναι η ένωση των παιδιών του (των υποομάδων του), και η ρίζα του δέντρου είναι η ομάδα που περιέχει όλα τα αντικείμενα. Αν λοιπόν επιτρέψουμε στις ομάδες να είναι εμφωλευμένες τότε μία ερμηνεία της εικόνας 1(a) είναι ότι έχει δύο υποομάδες (αυτές που βλέπουμε στην εικόνα 1(b)) κάθε μια εκ των οποίων έχει έχει τρείς υποομάδες (εικόνα 1(d)). Οι ομάδες που βλέπουμε στην εικόνα 1(a d) όταν τις παίρνουμε με αυτή τη σειρά, σχηματίζουν επίσης μια ιεραρχική ομαδοποίηση με αντίστοιχα 1,2,4 και 6 ομάδες σε κάθε επίπεδο. Τελικά, ας σημειώσουμε ότι μια ιεραρχική ομαδοποίηση μπορεί να αντιμετωπισθεί ως μια ακολουθία τμηματικών ομαδοποιήσεων και μια τμηματική ομαδοποίηση μπορεί να παραχθεί παίρνοντας ο- ποιοδήποτε τμήμα αυτής της ακολουθίας. Για παράδειγμα κόβοντας το ιεραρχικό δέντρο σε κάποιο επίπεδο. 9

10 Αποκλειστική έναντι Επικαλυπτώμενης έναντι Fuzzy Η ομαδοποίηση που είδαμε στην εικόνα 1 είναι εξ ολοκλήρου αποκλειστική, καθώς κάθε αντικείμενο τοποθετείται σε μία μόνο ομάδα. Υπάρχουν πολλές περιπτώσεις στις οποίες ένα σημείο μπορεί λογικά να τοποθετηθεί σε περισσότερες από μία ομάδες. Αυτές οι περιπτώσεις ανήκουν στην κατηγορία της μη αποκλειστικής ομαδοποίησης. Γενικά, μια επικαλυπτώμενη ή μη αποκλειστική ομαδοποίηση χρησιμοποιείται για να δείξουμε ότι ένα αντικείμενο μπορεί εικονικά να ανήκει σε περισσότερες από μία ομάδες. Για παράδειγμα, ένα άτομο σε ένα πανεπιστήμιο μπορεί να είναι ταυτόχρονα και φοιτητής αλλά και εργαζόμενος στο πανεπιστήμιο. Μία μη αποκλειστική ομαδοποίηση επίσης χρησιμοποιείται συχνά όταν, για παράδειγμα, ένα αντικείμενο βρίσκεται ανάμεσα σε δύο ή περισσότερες ομάδες και μπορεί λογικά να τοποθετηθεί σε κάθε μια από αυτές. Μπορούμε να φανταστούμε ένα σημείο ανάμεσα σε δύο ομάδες της εικόνας 1 να βρίσκεται περίπου στη μέση. Αντί να κάνουμε μια τυχαία επιλογή της ομάδας που θα το τοποθετήσουμε, μπορούμε να επιλέξουμε να το τοποθετήσουμε σε όλες τις ομάδες που είναι πιθανό να ανήκει. Σε μία fuzzy ομαδοποίηση, κάθε αντικείμενο ανήκει σε κάθε ομάδα με ένα βάρος συμμετοχής μεταξύ 0(δεν ανήκει καθόλου στην ομάδα) και 1(ανήκει απόλυτα στην ομάδα). Με άλλα λόγια οι ομάδες συμπεριφέρονται σαν σύνολο fuzzy. (Μαθηματικά, ένα σύνολο fuzzy είναι αυτό στο οποίο ένα αντικείμενο ανήκει σε οποιοδήποτε σύνολο με ένα βάρος που είναι μεταξύ 0 και 1. Στην fuzzy ομαδοποίηση, συχνά απαιτούμε τον επιπλέον περιορισμό το άθροισμα των βαρών για κάθε αντικείμενο να είναι 1.) Παρόμοια, πιθανοτικές τεχνικές ομαδοποίησης υ- πολογίζουν την πιθανότητα με την οποία κάθε σημείο ανήκει σε κάθε ομάδα, και το άθροισμα αυτών των πιθανοτήτων πρέπει επίσης να είναι 1. Επειδή, τα βάρη συμμετοχής ή οι πιθανότητες για κάθε αντικείμενο έχουν άθροισμα 1, η fuzzy ή η πιθανοτική ομαδοποίηση δεν επιλύει πραγματικές περιπτώσεις πολλών κλάσεων, όπως την περίπτωση του εργαζόμενου φοιτητή, όπου ένα αντικείμενο ανήκει σε πολλές κλάσεις. Αντίθετα, αυτή η προσέγγιση προτιμάται για την αποφυγή της αυθαιρεσίας του να βάλουμε ένα αντικείμενο σε μόνο μία ομάδα ενώ μπορεί να είναι κοντά σε αρκετές. Πρακτικά η fuzzy ή πιθανοτική ομαδοποίηση συχνά τη μετατρέπουμε σε αποκλειστική ομαδοποίηση τοποθετώντας κάθε αντικείμενο στην ομάδα όπου το βάρος συμμετοχής του ή η πιθανότητα του είναι μεγαλύτερη. Πλήρης έναντι Μερικής Η πλήρης ομαδοποίηση τοποθετεί κάθε αντικείμενο σε μία ομάδα, ενώ η μερική ομαδοποίηση όχι. Το κίνητρο για μία μερική ομαδοποίηση είναι το εξής, μερικά αντικείμενα σε ένα σύνολο δεδομένων μπορεί να μην ανήκουν σε καλά ορισμένες ομάδες. Πολλές φορές αντικείμενα στο σύνολο δεδομένων μπορεί να αναπαριστούν θόρυβο, απομακρυσμένα σημεία(outliers) ή «αδιάφορο υπόβαθρο». Για παράδειγμα, μερικά άρθρα εφημερίδας μπορεί να αναφέρονται σε ένα κοινό θέμα, όπως το φαινόμενο του θερμοκηπίου, ενώ άλλα άρθρα μπορεί να είναι πιο γενικά ή να έχουν δικό τους ανεξάρτητο θέμα. Ετσι, για να βρούμε τα σημαντικά θέματα στα άρθρα του τελευταίου μήνα, μπορεί να θέλουμε να ψάξουμε μόνο για ομάδες αρχείων που είναι στενά συνδεμένες με ένα κοινό θέμα. Σε άλλες περιπτώσεις, επιθυμείτε μία πλήρης ομαδοποίηση των αντικειμένων. Για παράδειγμα, μία εφαρμογή που χρησιμοποιεί την ομαδοποίηση για να οργανώσει αρχεία για ανάγκες αναζήτησης όπου εγγυάται ότι όλα τα αρχεία μπορούν να αναζητηθούν. 10

11 2.3 Diaforetikˆ eðdh omˆdwn Σκοπός της ομαδοποίησης είναι η εύρεση χρήσιμων συνόλων αντικειμένων (ομάδες), όπου η χρησιμότητα καθορίζεται από το στόχο της ανάλυσης δεδομένων. Υπάρχουν αρκετές διαφορετικές ερμηνείες για μία ομάδα που είναι χρήσιμη στη πράξη. Για να δούμε μία γραφική απεικόνιση των διαφορών ανάμεσα σε τύπους ομάδων, χρησιμοποιούνται ως δεδομένα δισδιάστατα σημεία, όπως βλέπουμε στην εικόνα 2. Τονίζουμε, εντούτοις, ότι οι τύποι ομάδων που περιγράφονται εδώ ι- σχύουν εξίσου για άλλα είδη δεδομένων. Καλά χωρισμένες ομάδες Μία ομάδα είναι ένα σύνολο αντικειμένων στο οποίο σύνολο κάθε αντικείμενο είναι πιο κοντά (ή πιο όμοιο) με κάθε άλλο αντικείμενο στην ομάδα από ότι με οποιοδήποτε αντικείμενο που δεν βρίσκεται στην ομάδα. Μερικές φορές χρησιμοποιείται ένα κατώφλι για να καθορίσουμε ότι όλα τα αντικείμενα σε μία ομάδα πρέπει να είναι επαρκώς κοντά (ή όμοια) μεταξύ τους. Αυτός ο ουτοπιστικός ορισμός μίας ομάδας ικανοποιείται μόνο όταν τα δεδομένα αποτελούνται από φυσικές ομάδες που είναι αρκετά μακριά μεταξύ τους. Στην εικόνα 2(α) βλέπουμε ένα παράδειγμα καλά χωρισμένων ομάδων που αποτελείται από δύο σύνολα σημείων στον δισδιάστατο χώρο. Η απόσταση ανάμεσα σε οποιαδήποτε δύο σημεία που ανήκουν σε διαφορετικές ομάδες είναι μεγαλύτερη από ότι η απόσταση ανάμεσα σε δύο σημεία που ανήκουν στην ίδια ομάδα. Οι καλά χωρισμένες ομάδες δεν χρειάζεται να είναι σφαιρικές, μπορούν να έχουν οποιοδήποτε σχήμα. Ομάδες βασισμένες σε πρότυπο Μία ομάδα είναι ένα σύνολο αντικειμένων στο οποίο κάθε αντικείμενο είναι πιο κοντά ή πιο όμοιο με το πρότυπο που ορίζει την ομάδα από ότι με το πρότυπο ο- ποιασδήποτε άλλης ομάδας. Για δεδομένα με συνεχείς χαρακτηριστικά, το πρότυπο μίας ομάδας συχνά είναι ένα κέντρο, για παράδειγμα, ο μέσος όλων των σημείων στην ομάδα. Οταν ένα κέντρο δεν έχει νόημα, όπως όταν τα δεδομένα έχουν κατηγοριοποιημένες ιδιότητες, το πρότυπο είναι συχνά μία μέση τιμή, για παράδειγμα, το Πίο αντιπροσωπευτικό σημείο μίας ομάδας. Για πολλούς τύπους δεδομένων, το πρότυπο μπορεί να θεωρηθεί ως το πιο κεντρικό σημείο, σε αυτές τις περιπτώσεις, συχνά αναφερόμαστε στις ομάδες βασισμένες σε πρότυπο ως ομάδες βασισμένες σε κέντρο. Τέτοιου τύπου ομάδες συνηθίζουν να είναι σφαιρικές. Στην εικόνα 2(β) βλέπουμε ένα παράδειγμα ομάδων βασισμένων σε κέντρο. Ομάδες βασισμένες σε γραφήματα Αν τα δεδομένα αναπαριστώνται σαν ένα γράφημα, όπου κόμβοι είναι τα αντικείμενα και οι ακμές αναπαριστούν συνδέσεις ανάμεσα σε αντικείμενα, τότε μία ομάδα μπορεί να οριστεί ως ένα συνδεμένο συστατικό. Για παράδειγμα, ένα σύνολο αντικειμένων που είναι συνδεμένα μεταξύ τους αλλά δεν έχουν καμία σύνδεση με αντικείμενα εκτός τις ομάδας. Ενα σημαντικό παράδειγμα ομάδων βασισμένων σε γραφήματα είναι οι ομάδες βασισμένες στη γειτνίαση, όπου δύο αντικείμενα συνδέονται μόνο αν βρίσκονται εντός μίας ορισμένης μεταξύ τους απόστασης. Αυτό υπονοεί ότι κάθε αντικείμενο στην βασισμένη στην γειτνίαση ομάδα είναι πιο κοντά σε κάποιο άλλο αντικείμενο της ομάδας από ότι σε οποιοδήποτε άλλο σημείο διαφορετικής ομάδας. Αυτός ο ορισμός μίας ομάδας είναι χρήσιμος όταν οι ομάδες 11

12 είναι ακανόνιστες, αλλά μπορεί να έχει προβλήματα όταν υπάρχει θόρυβος, όπως βλέπουμε από τις δύο σφαιρικές ομάδες στην εικόνα 2(γ), μία μικρή γέφυρα από σημεία μπορεί να ενώσει δύο διαφορετικές ομάδες. Ομάδες βασισμένες στη πυκνότητα Μία ομάδα είναι μία πυκνή περιοχή αντικειμένων που περιβάλλεται από μία περιοχή χαμηλής πυκνότητας. Στην εικόνα 2(δ) βλέπουμε μερικές ομάδες βασισμένες στη πυκνότητα για δεδομένα που δημιουργήθηκαν προσθέτοντας θόρυβο στα δεδομένα της εικόνας 2(γ). Οι δύο κυκλικές ομάδες δεν ενώνονται όπως στην εικόνα 2(γ), γιατί η μεταξύ τους γέφυρα χάνεται μέσα στο θόρυβο. Παρόμοια, η καμπύλη που υπάρχει στην εικόνα 2(γ) επίσης χάνεται μέσα στο θόρυβο και δεν σχηματίζει μία ομάδα στην εικόνα 2(δ). Ενας ορισμός βασισμένος στην πυκνότητα συχνά χρειάζεται όταν οι ομάδες είναι ακανόνιστες, και όταν υπάρχουν θόρυβος και α- πομακρυσμένα σημεία. Αντίθετα, ένας ορισμός βασισμένος στη γειτνίαση δεν θα δούλευε καλά για τα δεδομένα της εικόνας 2(δ) αφού ο θόρυβος θα σχημάτιζε γέφυρες ανάμεσα στις ομάδες. Μοιρασμένη ιδιότητα (εννοιολογικές ομάδες) Γενικότερα, μπορούμε να ορίσουμε μία ομάδα ως ένα σύνολο αντικειμένων που μοιράζονται κάποια ιδιότητα. Αυτός ο ορισμός εμπεριέχει όλους τους προηγούμενους ορισμούς μίας ομάδας. Για παράδειγμα, αντικείμενα σε μία ομάδα βασισμένη στο κέντρο μοιράζονται την ιδιότητα ότι είναι όλα πιο κοντά στο ίδιο κέντρο ή μέσο. Παρόλα αυτά, η προσέγγιση της μοιρασμένης ιδιότητας επίσης περιέχει νέους τύπους ομάδων. Ας σκεφτούμε τις ομάδες της εικόνας 2(ε). Μία τριγωνική περιοχή (ομάδα) είναι παρακείμενη σε μία ορθογώνια, και βλέπουμε δύο τέμνοντες κύκλους (ομάδες). Και στις δύο περιπτώσεις, ένας αλγόριθμος ομαδοποίησης θα χρειαζόταν μία πολύ συγκεκριμένη έννοια μίας ομάδας για να ανιχνεύσει επιτυχώς αυτές τις ομάδες. Η διαδικασία εύρεσης τέτοιου τύπου ομάδες ονομάζεται εννοιολογική ομαδοποίηση (conceptual clustering). 12

13 (α) Καλά χωρισμένες ομάδες. Κάθε σημείο είναι πιο κοντά σε όλα τα σημεία της ομάδας του από ότι σε οποιοδήποτε σημείο σε άλλη ομάδα. (β) Ομάδες βασισμένες στο κέντρο. Κάθε σημείο είναι πιο κοντά στο κέντρο της ομάδας του από ότι στο κέντρο οποιασδήποτε άλλης ομάδας (γ) Ομάδες βασισμένες στη γειτνίαση. Κάθε σημείο είναι πιο κοντά σε ένα τουλάχιστον σημείο της ομάδας του από ότι σε οποιοδήποτε άλλο σημείο σε άλλη ομάδα (δ) Ομάδες βασισμένες στη πυκνότητα. Οι ομάδες είναι περιοχές μεγάλης πυκνότητας που χωρίζονται από περιοχές χαμηλής πυκνότητας (ε) Εννοιολογικές ομάδες. Τα σημεία μίας ομάδας μοιράζονται κάποια γενική ιδιότητα που προκύπτει από ολόκληρο το σύνολο των σημείων.(τα σημεία στην τομή των κύκλων ανήκουν και στους δύο). Σχήμα 2: Διαφορετικά είδη ομάδων που παρουσιάζονται από σύνολα δισδιάστατων σημείων [34] 13

14 2.4 Algìrijmoi omadopoðhshc Στη συνέχεια θα παρουσιαστούν περιγραφικά μερικοί από τους πιο γνωστούς και απλούς αλγορίθμους ομαδοποίησης K-means Οι τεχνικές ομαδοποίησης που είναι βασισμένες σε πρότυπο δημιουργούν μία ενός επιπέδου τμηματοποίηση των δεδομένων. Υπάρχει ένα πλήθος τέτοιων τεχνικών, αλλά μία από τις πιο προεξέχων είναι η K-means. Η τεχνική K-means ορίζει ένα πρωτότυπο σύμφωνα με ένα κέντρο, που συνήθως είναι η μέση τιμή ενός συνόλου στοιχείων, και τυπικά εφαρμόζεται σε αντικείμενα ενός συνεχή n-διάστατου χώρου. Ο βασικός K-means αλγόριθμος Η τεχνική ομαδοποίησης K-means είναι απλή. Επιλέγουμε K αρχικά κέντρα, όπου K είναι μία παράμετρος καθορισμένη από τον χρήστη, ονομαζόμενη ως το πλήθος των ομάδων που επιθυμούμε. Επειτα κάθε στοιχείο ανατίθεται στο κοντινότερο κέντρο, και κάθε συλλογή στοιχείων που έχουν ανατεθεί σε ένα κέντρο σχηματίζουν μία ομάδα. Τότε επαναπροσδιορίζουμε το κέντρο βασιζόμενοι στα στοιχεία που του έχουν ανατεθεί. Τέλος επαναλαμβάνουμε την διαδικασία μέχρι κανένα στοιχείο να μην αλλάζει ομάδα, ή όμοια, μέχρι να παραμείνουν ίδια τα κέντρα. Ο αλγόριθμος K-means περιγράφεται τυπικά στον πίνακα 1. Η λειτουργία του αλγορίθμου παρουσιάζεται στην εικόνα 3, στην οποία βλέπουμε πως, ξεκινώντας από τρία κέντρα, οι τελικές ομάδες βρίσκονται μετά από τέσσερις επαναλήψεις της διαδικασίας. Σε κάθε βήμα μπορούμε να δούμε τα κέντρα και τα σημεία που τους ανατίθενται Τα κέντρα παρουσιάζονται με το σύμβολο + και όλα τα σημεία που ανήκουν στην ίδια ομάδα συμβολίζονται με το ίδιο σχήμα. Function K-means { 1. Διάλεξε K στοιχεία ως αρχικά κέντρα 2. επανέλαβε 3. Δημιούργησε K ομάδες τοποθετώντας το κάθε στοιχείο στην ομάδα του κοντινότερου κέντρου 4. Επαναπροσδιόρισε το κέντρο της κάθε ομάδας 5. Μέχρι τα κέντρα να μην αλλάζουν } Πίνακας 1: Ο βασικός K-means αλγόριθμος. Στο πρώτο βήμα που βλέπουμε στην εικόνα 3, τα στοιχεία ανατίθενται στα αρχικά κέντρα, τα οποία είναι όλα στη μεγάλη ομάδα των στοιχείων. Για αυτό το παράδειγμα χρησιμοποιήθηκε ο μέσος ως κέντρο. Αφού τα στοιχεία ανατεθούν στα κέντρα, τα κέντρα ανανεώνονται. Στο δεύτερο βήμα τα στοιχεία ανατίθενται στα ανανεωμένα κέντρα, και τα κέντρα ανανεώνονται και πάλι. Στα επόμενα βήματα που βλέπουμε στην εικόνα τα δύο κέντρα μετακινούνται προς τις μικρότερες ομάδες στο κάτω μέρος. Οταν ο αλγόριθμος τερματίζεται στο τελευταίο βήμα καθώς τα κέντρα του δεν αλλάζουν ξανά, έχει αναγνωρίσει τις φυσικές ομάδες των στοιχείων. 14

15 Σχήμα 3: Τα τέσσερα βήματα του αλγορίθμου K-means από αριστερά προς τα δεξιά για την εύρεση τριών ομάδων [34] Πολυπλοκότητα Χρόνου και Χώρου Οι απαιτήσεις σε χώρο του αλγορίθμου K-means είναι μέτριες καθώς μόνο τα δεδομένα και κέντρα αποθηκεύονται. Συγκεκριμένα ο χώρος που χρειάζεται είναι O((m + K)n), όπου m είναι το πλήθος των στοιχείων και n είναι το πλήθος των χαρακτηριστικών. Η απαιτήσεις του χρόνου του αλγορίθμου είναι επίσης μέτριες. Συγκεκριμένα ο χρόνος που χρειάζεται είναι O(I K m n), όπου I είναι το πλήθος των επαναλήψεων που χρειάζονται για να συγκλίνει ο αλγόριθμος. Πλεονεκτήματα και Μειονεκτήματα Ο αλγόριθμος K-means είναι απλός και μπορεί να χρησιμοποιηθεί σε μεγάλη ποικιλία τύπων δεδομένων. Είναι επίσης ιδιαίτερα αποδοτικός, παρότι συχνά εκτελούνται πολλαπλά τρεξίματα. Μερικές τροποποιήσεις του αλγορίθμου όπως ο bisecting K-means, είναι ακόμα πιο αποδοτικές, και λιγότερο ευαίσθητες σε προβλήματα αρχικοποίησης. Παρόλα αυτά ο K-means δεν είναι κατάλληλος για όλους τους τύπους δεδομένων. Δεν μπορεί να χειριστεί μη σφαιρικού τύπου ομάδες ή ομάδες διαφορετικού μεγέθους και πυκνότητας, παρότι μπορεί τυπικά να βρει καθαρές υ- ποομάδες αν ένα αρκετά μεγάλο πλήθος ομάδων έχει καθορισθεί. Ο αλγόριθμος K-means επίσης αντιμετωπίζει προβλήματα με σύνολα δεδομένων που περιέχουν α- πομακρυσμένα σημεία (outliers). Η εκ των προτέρων εύρεση των απομακρυσμένων σημείων και η αφαίρεση τους βοηθάει ιδιαίτερα σε αυτές τις περιπτώσεις. Τέλος, ο αλγόριθμος K-means είναι περιορισμένος στην εφαρμογή του σε δεδομένα που υπάρχει η έννοια του κέντρου. Μία παρόμοια τεχνική, η ομαδοποίηση K-medoid, δεν έχει αυτόν τον περιορισμό, αλλά είναι αρκετά πιο ακριβή μέθοδος DBSCAN Η ομαδοποίηση που είναι βασισμένη στην πυκνότητα εντοπίζει περιοχές υψηλής πυκνότητας οι οποίες χωρίζονται από περιοχές χαμηλής πυκνότητας. Ο DBSCAN είναι ένας απλός και αποδοτικός αλγόριθμος βασισμένος στην πυκνότητα ο οποίος παρουσιάζει πλήθος σημαντικών χαρακτηριστικών που είναι σημαντικά για την βασισμένη στην πυκνότητα ομαδοποίηση. Πριν περιγράψουμε τον αλγόριθμο DB- SCAN θα αναφέρουμε έννοιες κλειδί για την πυκνότητα. 15

16 Παραδοσιακή Πυκνότητα: Βασισμένη στο Κέντρο Παρότι δεν υπάρχουν τόσες προσεγγίσεις για τον ορισμό της πυκνότητα όπως υπάρχουν για τον ορισμό της ομοιότητας, υπάρχουν αρκετές διαφορετικές μέθοδοι. Σε αυτή τη παράγραφο αναλύουμε την βασισμένη στο κέντρο εκδοχή στην οποία βασίζεται ο αλγόριθμος DBSCAN. Στην βασισμένη στο κέντρο εκδοχή, η πυκνότητα εκτιμάται για ένα συγκεκριμένο στοιχείο στο σύνολο δεδομένων μετρώντας το πλήθος των στοιχείων που βρίσκονται σε μία καθορισμένη ακτίνα γύρο από αυτό. Εκεί συμπεριλαμβάνεται και το ίδιο το στοιχείο. Αυτή τη τεχνική την βλέπουμε στην εικόνα 4. Το πλήθος των στοιχείων μέσα στην ακτίνα του στοιχείου A είναι 7, συμπεριλαμβανομένου του A. Σχήμα 4: Πυκνότητα βασισμένη στο κέντρο [34]. Αυτή η μέθοδος είναι απλή να εφαρμοστεί, αλλά η πυκνότητα οποιουδήποτε στοιχείο θα εξαρτάται από τη συγκεκριμένη ακτίνα. Για παράδειγμα, αν η ακτίνα είναι αρκετά μεγάλη, τότε όλα τα στοιχεία θα έχουν πυκνότητα m, το πλήθος των στοιχείων στο σύνολο δεδομένων. Επιπλέον, αν η ακτίνα είναι πολύ μικρή, τότε όλα τα στοιχεία θα έχουν πυκνότητα 1. Κλασικοποίηση Στοιχείων Σύμφωνα με τη Βασισμένη στο Κέντρο Πυκνότητα Η βασισμένη στο κέντρο εκδοχή της πυκνότητας μας επιτρέπει να κλασικοποιήσουμε ένα στοιχείο ανάλογα όταν είναι (1) στο εσωτερικό μιας πυκνής περιοχής (ένα στοιχείο πυρήνα), (2) στο σύνορο μιας πυκνής περιοχής (ένα συνοριακό στοιχείο), ή (3) σε μία πιο αραιή περιοχή (ένα στοιχείο θόρυβος). Στην εικόνα 5 βλέπουμε μία γραφική απεικόνιση των περιπτώσεων των στοιχείων πυρήνα, συνοριακών και θορύβου χρησιμοποιώντας μία συλλογή δισδιάστατων σημείων. Στη συνέχεια βλέπουμε μια πιο ακριβής περιγραφή. Στοιχεία Πυρήνα: Αυτά τα στοιχεία είναι στο εσωτερικό μίας βασισμένης στην πυκνότητα ομάδας. Ενα στοιχείο είναι ένα στοιχείο πυρήνα όταν το πλήθος των στοιχείων μέσα σε μία δεδομένη γειτονιά γύρο από το στοιχείο όπως ορίζεται από τη συνάρτηση απόστασης και από την καθορισμένη από το χρήστη παράμετρο απόστασης, ξεπερνάει ένα συγκεκριμένο όριο, MinPts, που είναι επίσης μία καθορισμένη από το χρήστη παράμετρος. Στην εικόνα 5, το στοιχείο A είναι ένα στοιχείο πυρήνα, για τη δεδομένη ακτίνα αν θέσουμε MinP ts 7. Συνοριακά Στοιχεία: Ενα συνοριακό στοιχείο δεν είναι στοιχείο πυρήνα, αλλά σχηματίζει γειτονιά με ένα στοιχείο πυρήνα. Στην εικόνα 5, το 16

17 στοιχείο B είναι ένα συνοριακό στοιχείο. Ενα συνοριακό στοιχείο μπορεί να σχηματίζει γειτονιά με αρκετά στοιχεία πυρήνα. Στοιχεία Θορύβου: Ενα στοιχείο θορύβου είναι κάθε στοιχείο που δεν είναι ούτε στοιχείο πυρήνα ούτε συνοριακό. Στην εικόνα 5, το στοιχείο C είναι στοιχείο θορύβου. Σχήμα 5: Στοιχεία πυρήνα, συνοριακά και θορύβου [34]. Ο Αλγόριθμος DBSCAN Δεδομένων των παραπάνω ορισμών ο αλγόριθμος DBSCAN μπορεί να ορισθεί ως ακολούθως Κάθε δύο στοιχεία πυρήνα που είναι αρκετά κοντά μεταξύ τους, δηλαδή το ένα εντός της ακτίνας του άλλου ανήκουν στην ίδια ομάδα. Παρόμοιο, κάθε συνοριακό στοιχείο που είναι κοντά σε ένα στοιχείο πυρήνα τοποθετείται στην ίδια ομάδα με το στοιχείο πυρήνα. ( Ισως χρειαστεί να επιλυθούν περιπτώσεις όπου ένα συνοριακό στοιχείο είναι κοντά σε δύο στοιχεία πυρήνα που ανήκουν σε διαφορετικές ομάδες.) Τα στοιχεία θορύβου απορρίπτονται Οι τυπικές λεπτομέρειες δίνονται στον πίνακα 2. Function DBSCAN { 1. Ταυτοποίησε όλα τα στοιχεία ανάλογα με το αν είναι πυρήνα, συνοριακά ή θορύβου. 2. Διέγραψε τα στοιχεία θορύβου 3. Βάλε μία ακμή ανάμεσα σε όλα τα στοιχεία πυρήνα που είναι εντός της μεταξύ τους ακτίνας 4. Φτιάξε κάθε σύνολο συνδεμένων στοιχείων πυρήνα σε μία ξεχωριστή ομάδα 5. Τοποθέτησε κάθε συνοριακό στοιχείο σε μία από τις ομάδες των γειτονικών του στοιχείων πυρήνα } Πίνακας 2: Ο βασικός DBSCAN αλγόριθμος. 17

18 Πολυπλοκότητα Χρόνου και Χώρου Η βασική πολυπλοκότητα χρόνου του DBSCAN αλγορίθμου είναι Ο(m ο χρόνος για την εύρεση της γειτονιάς), όπου m είναι το πλήθος των στοιχείων. Στην χειρότερη περίπτωση, αυτή η πολυπλοκότητα είναι Ο(m 2 ). Παρόλα αυτά, σε χώρους χαμηλής διάστασης, υπάρχουν δομές δεδομένων που επιτρέπουν την αποδοτική εύρεση όλων των στοιχείων που βρίσκονται σε μία δεδομένη απόσταση από ένα συγκεκριμένο στοιχείο, και η πολυπλοκότητα χρόνου μπορεί να είναι μέχρι και Ο(m log m). Ο χώρος που χρειάζεται ο αλγόριθμος DBSCAN ακόμα και για δεδομένα υψηλής διάστασης είναι Ο(m) γιατί το μόνα που χρειάζεται είναι να κρατάμε ένα μικρό ποσό δεδομένων για κάθε στοιχείο, για παράδειγμα, την ταμπέλα της ομάδας και την αναγνώριση του κάθε στοιχείου ως στοιχείο πυρήνα, συνοριακό ή θορύβου. Πλεονεκτήματα και Μειονεκτήματα Επειδή ο αλγόριθμος DBSCAN χρησιμοποιεί έναν βασισμένο στην πυκνότητα ορισμό μιας ομάδας, είναι σχετικά ανθεκτικός σε θόρυβο και μπορεί να αντιμετωπίσει ομάδες διαφόρων μορφών και μεγεθών. Για αυτό το λόγο ο αλγόριθμος DBSCAN μπορεί να εντοπίσει ομάδες που δεν μπορούν να βρεθούν από τον αλγόριθμο K- means όπως αυτές στην εικόνα 6. Παρόλα αυτά, ο DBSCAN έχει προβλήματα όταν οι ομάδες έχουν πολύ διαφορετικές πυκνότητες. Και επίσης έχει προβλήματα με δεδομένα υψηλής διάστασης καθώς η πυκνότητα είναι πολύ δύσκολο να ορισθεί για τέτοιου τύπου δεδομένα. Τέλος ο DBSCAN μπορεί αν είναι ιδιαίτερα ακριβός σε δεδομένα υψηλής διάστασης. Σχήμα 6: Δείγμα δεδομένων [34]. 3 Ierarqik OmadopoÐhsh Οι Ιεραρχικοί Αλγόριθμοι Ομαδοποίησης εκτελούν συναθροίσεις (hierarchical agglomerative), ή διαχωρισμούς των δεδομένων, (hierarchical divisive). Χαρακτηριστικό των ιεραρχικών μεθόδων είναι πως η ανάθεση ενός αντικειμένου σε μια ομάδα είναι οριστική. Δηλαδή μόλις ένα αντικείμενο ενωθεί με μια ομάδα ποτέ δεν απομακρύνεται και δεν συγχωνεύεται με άλλα αντικείμενα που ανήκουν σε κάποια άλλη ομάδα. Οι συναθροιστικές ιεραρχικές μέθοδοι σχηματίζουν μια σειρά από συγχωνεύσεις των n αντικειμένων σε ομάδες καταλήγοντας σε μια ομάδα η οποία περιλαμβάνει το σύνολο των αντικειμένων. Αντίθετα, οι διαιρετικές ιεραρχικές μέθοδοι 18

19 χωρίζουν το σύνολο των n αντικειμένων σε πιο εκλεπτυσμένες διαμερίσεις και τελικά καταλήγουν στον εντοπισμό n ομάδων που η καθεμία περιέχει ένα αντικείμενο. Το αποτέλεσμα των συναθροιστικών και των διαιρετικών μεθόδων παριστάνονται σε ένα δισδιάστατο διάγραμμα γνωστό ως δεντρόγραμμα. Οι παραγόμενες ομάδες είναι φωλιασμένες και καθεμιά μπορεί να θεωρηθεί ως ένα μέρος μίας ευρύτερης και πιο περιεκτικής ομάδας που χαρακτηρίζεται από ένα υψηλότερο επίπεδο ομοιότητας [3,36,50,125]. Σχήμα 7: Ιεραρχική ομαδοποίηση ως δεντρόγραμμα και ως φωλιασμένες ομάδες 3.1 Ierarqikèc Mèjodoi DiaÐreshc Μία ιεραρχική μέθοδος διαίρεσης στην εκκίνηση της θεωρεί ότι όλες οι οντότητες ανήκουν σε μία ομάδα και στην συνέχεια διαχωρίζει αυτή την ομάδα. Αν το σύνολο που θέλουμε να ομαδοποιήσουμε αποτελείται από n οντότητες τότε το πλήθος των υποσυνόλων μεγέθους 2 είναι 2 n 1 1. Μόλις πραγματοποιηθεί ο αρχικός διαχωρισμός, τα αντικείμενα μετακινούνται από μία ομάδα σε μία άλλη ή εκτελούνται πιο εκλεπτυσμένες υποδιαιρέσεις των ήδη σχηματιζόμενων ομάδων [36,50,125]. Υπάρχουν δύο στρατηγικές διαίρεσης[3,50,125]: Μονοθετικές (Monothetic): Μονοθετική χαρακτηρίζεται μία ομάδα στην οποία όλες οι οντότητες έχουν προσεγγιστικά την ίδια τιμή για μία συγκεκριμένη μεταβλητή. Δηλαδή, οι μονοθετικές ομάδες καθορίζονται από συγκεκριμένες μεταβλητές στις οποίες συγκεκριμένες τιμές είναι απαραίτητες για να γίνουν οι οντότητες μέλη ομάδων. Πολυθετικές (Polythetic): Μια πολυθετική ομάδα είναι μια ομάδα στην οποία όλες οι οντότητες έχουν προσεγγιστικά τις ίδιες τιμές για ένα υποσύνολο συγκεκριμένων μεταβλητών. Δηλαδή, οι πολυθετικές ομάδες καθορίζονται από συγκεκριμένο υποσύνολο μεταβλητών για τις οποίες συγκεκριμένες τιμές είναι απαραίτητες για να γίνουν οι οντότητες μέλη των ομάδων. Η πιο συνηθισμένη μορφή των αλγορίθμων αυτών, ξεχωρίζει επαναληπτικά από τις ομάδες το στοιχείο το οποίο είναι περισσότερο αταίριαστο με την αντίστοιχη ομάδα. Για την επιλογή της ομάδας κάθε φορά, χρησιμοποιεί το μέτρο της διαμέτρου, που είναι η μεγαλύτερη απόσταση ανάμεσα σε κάθε ζευγάρι στοιχείων. Με αυτό τον τρόπο κατασκευάζεται το δεντρόγραμμα που αναπαριστά και το τελικό αποτέλεσμα του αλγορίθμου. 19

20 Ανάμεσα στην κατηγορία των διαιρετικών ιεραρχικών αλγορίθμων, ο αλγόριθμος PDDP(Principal Direction Divisive Partitioning)[5] είναι ιδιαίτερης αξίας. Ο αλγόριθμος αυτός, βασίζεται στην τεχνική Ανάλυσης σε Πρωτεύουσες Συνιστώσες (Principal Compenent Analysis(PCA))[3], και αξιοποιεί την σποραδικότητα των δεδομένων. Αυτή η τεχνική επιτρέπει την εφαρμογή του αλγορίθμου σε δεδομένα υψηλής διάστασης, που για άλλους αλγόριθμους είναι απαγορευτική. Συγκρινόμενος με άλλες παρόμοιες τεχνικές (όπως Latent SemanticIndexing και Linear Least Square Fit), ο PDDP έχει το πλεονέκτημα της πολύ χαμηλής υπολογιστικής πολυπλοκότητας. Αυτό επιτυγχάνεται λαμβάνοντας πληροφορία μόνο από το πρώτο ιδιάζων διάνυσμα, και όχι από μία πλήρης ανάλυση της μήτρας των δεδομένων. Βέβαια σαν ιεραρχικός αλγόριθμος ομαδοποίησης το αποτέλεσμα του είναι ένα ιεραρχικό δενδρόγραμμα των ομάδων. Πριν συνεχίσουμε στην εκτενή ανάλυση του αλγορίθμου PDDP θα κάνουμε μία αναφορά στην τεχνική Ανάλυσης σε Πρωτεύουσες Συνιστώσες. 3.2 Anˆlush Prwteuous n Sunistws n Η ανάλυση πρωτευουσών συνιστωσών Principal Components Analysis, PCA είναι ένας τρόπος αναγνώρισης προτύπων στα δεδομένα και εμφάνισης των δεδομένων αυτών με τέτοιο τρόπο ώστε να δίνεται έμφαση στις ομοιότητες και τις διαφορές τους. Δεδομένου ότι τα πρότυπα των δεδομένων είναι δύσκολο να βρεθούν για δεδομένα μεγάλης διάστασης, όπου η πολυτέλεια του να έχουμε γραφική απεικόνιση δεν υπάρχει, η τεχνική PCA είναι ένα δυνατό εργαλείο για την ανάλυση τους. Το κύριο χαρακτηριστικό του PCA είναι ότι είναι μια τεχνική που χρησιμοποιείται για να μειώσει τη διάσταση πολυδιάστατων συνόλων δεδομένων για την ανάλυση. Από τεχνικής άποψης η τεχνική PCA είναι ένας ορθογώνιος γραμμικός μετασχηματισμός που μετασχηματίζει τα δεδομένα σε ένα νέο σύστημα συντεταγμένων έτσι ώστε η μέγιστη διαφορά από οποιαδήποτε προβολή των στοιχείων έρχεται να βρεθεί στην πρώτη συντεταγμένη(πρώτη πρωτεύουσα συνιστώσα), η δεύτερη μέγιστη διαφορά στη δεύτερη συντεταγμένη και ούτω καθ εξής. Η Μέθοδος Στη συνέχεια θα δούμε τα βήματα εφαρμογής της τεχνικής PCA. Αρχικά πρέπει να αφαιρέσουμε τη μέση τιμή κάθε διάστασης από κάθε κάθε στοιχείο της αντίστοιχης διάστασης του δείγματος μας. Η μέση τιμή που αφαιρούμε είναι ο δειγματικός μέσος της κάθε διάστασης. Για παράδειγμα αφαιρούμε όλες τις τιμές τις διάστασης x με τον δειγματικό μέσο ˆx. Ετσι θα πάρουμε ένα νέο σύνολο δεδομένων που η μέση τιμή του είναι μηδέν. Στη συνέχεια υπολογίζουμε τον πίνακα συνδιασποράς του μητρώου που περιέχει τα κεντροποιημένα στοιχεία. Αφού ο πίνακας συνδιασποράς είναι τετραγωνικός μπορούμε να υπολογίσουμε τα ιδιοδιανύσματα και τις ιδιοτιμές του. Αυτά είναι πολύ σημαντικά καθώς μας δίνουν χρήσιμες πληροφορίες για τα δεδομένα μας. Από τα ιδιοδιανύσματα μπορούμε να εξάγουμε γραμμές οι ο- ποίες χαρακτηρίζουν τα δεδομένα μας. Τώρα παρατηρώντας τα ιδιοδιανύσματα και τις ιδιοτιμές βλέπουμε ότι οι ιδιοτιμές έχουν διαφορετικές τιμές μεταξύ τους. Τα ιδιοδιανύσματα που αντιστοιχούν στις μεγαλύτερες ιδιοτιμές είναι οι πρωτεύουσες συνιστώσες του συνόλου δεδομένων μας. Αυτό που κάνουμε είναι να διατάξουμε τα ιδιοδιανύσματα σύμφωνα με τις ιδιοτιμές τους από τη μεγαλύτερη στη μικρότερη. Ετσι παίρνουμε τις συνιστώσες με τη σειρά σημαντικότητας τους. Τώρα μπορούμε να αποφασίσουμε αν θα αγνοήσουμε τις λιγότερο σημαντικές συνιστώσες. Αν 20

21 αγνοήσουμε θα χάσουμε κάποιες πληροφορίες αλλά αφού οι ιδιοτιμές τους είναι μικρές δε χάνουμε και τόσα πολλά. Αν αφήσουμε εκτός κάποιες συνιστώσες το τελικό σύνολο δεδομένων θα έχει λιγότερες διαστάσεις από το αρχικό. Στη συνέχεια κατασκευάζουμε ένα μητρώο με τα ιδιοδιανύσματα που θέλουμε να κρατήσουμε στις στήλες του, έτσι μπορούμε να πούμε ότι έχουμε ένα διάνυσμα, έστω το A του οποίου τα στοιχεία είναι τα ιδιοδιανύσματα a 1, a 2, a 3,..., a n, που ονομάζεται διάνυσμα χαρακτηριστικών γνωρισμάτων. A=(a 1, a 2, a 3... a n ) όπου a i,i = 1..n τα n ιδιοδιανύσματα που έχουμε κρατήσει. Αφού έχουμε διαλέξει τις συνιστώσες(ιδιοδιανύσματα) που θέλουμε να κρατήσουμε και έχουμε κατασκευάσει το διάνυσμα χαρακτηριστικών γνωρισμάτων, πολλαπλασιάζουμε το ανάστροφο του διανύσματος αυτού με το ανάστροφο διάνυσμα των δεδομένων μας. Ετσι έχουμε F = A D Οπου A ο πίνακας των ιδιοδιανυσμάτων ανεστραμμένος έτσι ώστε τα ιδιοδιανύσματα τώρα να είναι στις γραμμές, ταξινομημένα από πάνω προς τα κάτω με σειρά σημαντικότητας, και D είναι ο ανάστροφος πίνακας των δεδομένων που έχουμε αφαιρέσει τη μέση τιμή. Τώρα η κάθε σειρά είναι μια διάσταση και τα δεδομένα εμφανίζονται σε κάθε στήλη. F λοιπόν θα είναι το τελικό σύνολο δεδομένων όπου τα δεδομένα εμφανίζονται σε κάθε στήλη και οι γραμμές είναι οι διαστάσεις. Τώρα έχουμε τα δεδομένα μας εκφραζόμενα με τα ιδιοδιανύσματα που έχουμε διαλέξει. Αν δεν έχουμε αφήσει κανένα ιδιοδιάνυσμα εκτός τότε απλώς έχουμε εκφράσει τα δεδομένα μας σε ένα άλλο σύστημα συντεταγμένων, αυτό που καθορίζουν τα ιδιοδιανύσματα. 4 O Algìrijmoc PDDP Οπως έχουμε ήδη αναφέρει ο αλγόριθμος PDDP, είναι μία ιεραρχική μέθοδος διαίρεσης, που χρησιμοποιεί τις προβολές των δεδομένων στις Πρωτεύουσες Συνιστώσες. Γενικά, κάθε διαιρετικός αλγόριθμος επαναληπτικά και ιεραρχικά χωρίζει το σύνολο δεδομένων σε ομάδες. Για να το πετύχει αυτό πρέπει να αντιμετωπίσει τρία ερωτήματα: Q 1 : Ποια ομάδα να χωρίσει στη συνέχεια; Q 2 : Πως να χωρίσει την επιλεγμένη ομάδα; Q 3 : Πότε πρέπει να τερματιστεί η επανάληψη; Για να περιγράψουμε αναλυτικότερα τον αλγόριθμο ας υποθέσουμε ότι τα δεδομένα αναπαριστώνται από ένα n a μητρώο D του οποίου οι γραμμές αναπαριστούν ένα δείγμα των δεδομένων d i, για i = 1,..., n. Επίσης ορίζουμε το διάνυσμα b, και το μητρώο Σ, που αναπαριστούν το διάνυσμα των μέσων και τη συνδιασπορά των δεδομένων αντίστοιχα: b = 1 n n d i, i=1 Σ = 1 n (D be) (D be), 21

22 Function PDDP (D, c max ) { 1. Οσο το πλήθος των φύλλων του δέντρουpddp είναι μικρότερο από c max 2. Διάλεξε το φύλλο P k του δέντρουpddp με τη μεγαλύτερη τιμή διασποράς: k = arg max i {scat(p i )} 3. Χώρισε το P k σύμφωνα με το πρόσημο την αντίστοιχης προβολής του d j P k, j = 1,..., P i 4. Κατασκεύασε τις υποομάδες του P k και πρόσθεσε τες στο δέντρο pddp } Πίνακας 3: Ο αλγόριθμος PDDP. όπου e είναι ένα διάνυσμα στήλη με μοναδιαία στοιχεία. Η μήτρα συνδιασποράς Σ είναι συμμετρική και θετικά ημιορισμένη, έτσι όλες οι ιδιοτιμές της είναι πραγματικές και μη αρνητικές. Τα ιδιοδιανύσματα u j j = 1,..., k που αντιστοιχούν στις k μεγαλύτερες ιδιοτιμές ονομάζονται οι πρωτεύουσες συνιστώσες ή πρωτεύουσες κατευθύνσεις. Οι προβολές p i : p i = u 1 (d i b), i = 1,..., n στην πρώτη πρωτεύουσα συνιστώσα u 1, είναι η πληροφορία που χρησιμοποιεί ο αλγόριθμος PDDP για να χωρίσει αρχικά το σύνολο δεδομένων σε δύο υποσύνολα P 1,P 2, με τον παρακάτω κανόνα: p i D, Αν p i 0 τότε το i-οστό στοιχείο ανήκει στο πρώτο υποσύνολο P 1 = P 1 d i, αλλιώς ανήκει στο δεύτερο υποσύνολο P 2 = P 2 d i. Διαλέγουμε το πρώτο ιδιοδιάνυσμα γιατί είναι η κατεύθυνση με τη μέγιστη διασπορά, και ως εκ τούτου η κατεύθυνση στην οποία τα δεδομένα απλώνονται περισσότερο. Σε αυτό το σημείο, ο αλγόριθμος έχει χωρίσει το αρχικό σύνολο δεδομένων σε δυο ομάδες, και είναι έτοιμος να επαναλάβει αυτή τη διαδικασία για τη μία εκ των δύο. Η επιλογή για το πια ομάδα θα χωρίσει βασίζεται στον παρακάτω κανόνα: Διάλεξε το P 1 Αν (P 1 b 1 e (P 2 b 2 e, διαφορετικά διάλεξε το P 2. Τα διανύσματα b 1 και b 2 είναι τα διανύσματα των μέσων των P 1 και P 2 αντίστοιχα, και το (P 1 b 1 e μπορεί επίσης να περιγραφεί ως η τιμή διασποράς scat(p 1 ) του τμήματος P 1. Αυτό είναι ένα μέτρο συνεκτικότητας μιας ομάδας. Αυτή η στρατηγική τμηματοποίησης δημιουργεί ένα δυαδικό δέντρο, που ονομάζεται pddp δέντρο, του οποίου τα φύλλα αποτελούν το τελικό αποτέλεσμα της ομαδοποίησης. Ο αλγόριθμος τερματίζει όταν βρεθεί το προκαθορισμένο πλήθος ομάδων c max. Μία αναλυτική περιγραφή του αλγορίθμου παρουσιάζεται στον πίνακα 3. Οπως βλέπουμε τα κριτήρια που απαντούν στα ερωτήματα Q 1, Q 2 και Q 3 είναι τα παρακάτω: 22

23 5 Belti nontac ton algìrijmo PDDP (Improving PDDP) Σε αυτή την ενότητα αναλύεται και απαντάται κάθε ένα από τα τρία βασικά ερωτήματα Q 1, Q 2 και Q 3 χωριστά, ως καθοδήγηση στο σχεδιασμό μίας νέας μεθόδου. 5.1 Pwc diaspˆtai h epilegmènh omˆda? Οπως έχουμε αναφέρει σε προηγούμενη ενότητα ο αλγόριθμος PDDP χρησιμοποιεί το πρόσημο της προβολής του κάθε στοιχείου των δεδομένων ως κριτήριο διάσπασης ομάδας (σημείο διάσπασης 0). Αυτό δείχνει και τις text mining ρίζες του αλγορίθμου, τα στοιχεία (documents) που έχουν θετικές προβολές αναμένεται να είναι περισσότερο όμοια μεταξύ τους από ότι με στοιχεία (documents) που έχουν αρνητικές προβολές. Στο nilsson2002hcu, προτάθηκε να χρησιμοποιηθεί αντί για την κύρια πρωτεύουσα συνιστώσα, η δεύτερη, η τρίτη κτλ. Με αυτόν το τρόπο, οι συγγραφείς προσπάθησαν να αποφύγουν ανεπιθύμητες διασπάσεις πραγματικών ομάδων στο σύνολο δεδομένων. Η απόφαση για το ποία προβολή θα χρησιμοποιηθεί, βασιζόταν στην τιμή διασποράς (scat value) των παραγόμενων ομάδων. Αυτό το κριτήριο αυξάνει υπερβολικά την υπολογιστική πολυπλοκότητα του αλγορίθμου. Παρόλα αυτά οι συγγραφείς δείχνουν ότι χρησιμοποιώντας μόνο τις δύο πρώτες πρωτεύουσες συνιστώσες βελτιώνουν σημαντικά την ποιότητα των ομάδων. Σε αυτή την εργασία προτείνεται ένας εναλλακτικός κανόνας για αυτή την απόφαση εμπνευσμένος από στοιχεία βασισμένα στην πυκνότητα. Για να δούμε α- ναλυτικότερα την αρχή της προτεινόμενης μεθόδου θα χρησιμοποιήσουμε ένα απλό παράδειγμα όπως στο [14]. Χρησιμοποιούμε ένα δισδιάστατο σύνολο δεδομένων όπως βλέπουμε στην εικόνα 8(α). Αυτό το σύνολο δεδομένων κατασκευάστηκε τεχνητά λαμβάνοντας τυχαία στοιχεία από μία πεπερασμένη μίξη τριών Γκαουσιανών κατανομών με διαφορετικές μέσες τιμές και μοναδιαία διασπορά. Εφαρμόζοντας την ανάλυση πρωτευουσών συνιστωσών, και προβάλλοντας τις δύο πρωτεύουσες συνιστώσες παίρνουμε τις γραμμές που βλέπουμε στην εικόνα 8(α). Αφού υπολογίζουμε τις προβολές των δεδομένων στην κύρια πρωτεύουσα συνιστώσα, ο αλγόριθμος PDDP κανονικά θα χώριζε τα δεδομένα σύμφωνα με το πρόσημο της αντίστοιχης προβολής για κάθε στοιχείο. Αυτό θα είχε ως αποτέλεσμα η ομάδα που βρίσκεται πιο πάνω από τις άλλες να χωριστεί στη μέση όπως βλέπουμε από την γραμμή ορισμένη ως γραμμή διάσπασης PDDP. Επίσης σημειώνουμε ότι ακόμα και αν χρησιμοποιήσουμε τη δεύτερη πρωτεύουσα συνιστώσα και πάλι δεν έχουμε ικανοποιητικό αποτέλεσμα, παρότι καλύτερο από την αρχική περίπτωση. Αυτό είναι το πρόβλημα που επιλύεται σε αυτή την εργασία. Για να βρούμε ένα νέο καλύτερο υπερεπίπεδο διάσπασης, εξετάζουμε το ι- στόγραμμα των προβολών των δεδομένων. Την γραφική απεικόνιση του ιστογράμματος την βλέπουμε στην εικόνα 8(β). Οπως παρατηρούμε, γύρο από το σημείο 0 που είναι το σημείο διάσπασης του αλγορίθμου PDDP, υπάρχει αρκετά μεγάλη συγκέντρωση προβολών. Ενώ, γύρο από το σημείο 1.6 τα δεδομένα δείχνουν να είναι πολύ λιγότερο συγκεντρωμένα. Αν χωρίσουμε την ομάδα βασισμένοι σε αυτόν τον αριθμό φαίνεται να μειώνουμε την πιθανότητα να διασπάσουμε μία ο- μάδα. Τη γραμμή διάσπασης που προκύπτει από αυτό το σημείο τη βλέπουμε στην εικόνα 8(α) ως την γραμμή διάσπασης ipddp. 23

24 (α) (β) Σχήμα 8: (α) Ενα σύνολο δεδομένων με τις πρωτεύουσες συνιστώσες του. (β) Το ιστόγραμμα των προβολών των δεδομένων στην κύρια πρωτεύουσα συνιστώσα. Συνάρτηση FindCutoff(D) { 1.Για κάθε d i D υπολόγισε τις προβολές p i, στην κύρια πρωτεύουσα συνιστώσα u 1 2.Για κάθε p i, i = 1,..., n, Βρες j = argmin j { p i p j } και p j p i, και υπολόγισε το pc i = p i p j 3.Υπολόγισε το c = arg max i {pc i } και m = max{pc i } 4.Επέστρεψε {p c, m} } Πίνακας 4: Η συνάρτηση FindCutoff(D) για ένα n a μητρώο D. Για να ανακαλύψουμε ένα τέτοιο σημείο στην γενική περίπτωση του μητρώου δεδομένων D χρησιμοποιούμε την συνάρτηση FindCutoff(), που βλέπουμε ως ψευδοκώδικα στον πίνακα 4. Με αυτό τον τρόπο στην πραγματικότητα υπολογίζουμε την πιο αραιή περιοχή των προβολών των δεδομένων, διατάσσοντας αρχικά και στη συνέχεια υπολογίζοντας την μέγιστη απόσταση ανάμεσα σε δύο διαδοχικές προβολές. Ετσι η διάσπαση των δεδομένων πραγματοποιείται βασισμένη στο παρακάτω κριτήριο: C 2,1 : Υπολόγισε το {p c, m} =FindCutoff(D), p i D, Αν (p i p c ) 0 τότε το i-οστό στοιχείο ανήκει στο πρώτο τμήμα P 1 = P 1 d i, διαφορετικά ανήκει στο δεύτερο τμήμα P 2 = P 2 d i. Η μεθοδολογία που έχει περιγραφεί μέχρι στιγμής έχει επίσης ένα μειονέκτημα. Στην περίπτωση όπου το σύνολο δεδομένων έχει πολλά απομακρυσμένα σημεία (σημεία που δεν ανήκουν σε καμία ομάδα), είναι πιθανόν η διαδικασία να αποφασίσει να χωρίσει ομάδες στις εξωτερικές τους περιοχές αφού θα είναι αραιές από την άποψη πυκνότητας. Για παράδειγμα Στην περίπτωση που παρουσιάζεται στην εικόνα 8(β), αυτές οι περιοχές θα είναι οι περιοχές ( 5, 6) και (5, 6). Για να διευθετήσουμε αυτό το πρόβλημα είμαστε υποχρεωμένοι να εισάγουμε μία ελεύθερη παράμετρο M inp ts, στη διαδικασία που καθορίζει το ελάχιστο πλήθος στοιχείων που απαιτείται για να σχηματίζεται μία κανονική ομάδα. Αυτή είναι μια συνηθισμένη διαδικασία για αλγόριθμους που είναι σχεδιασμένοι να αντιμετωπίζουν σύνολα δεδομένων με αρκετό θόρυβο [15]. 24

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος B http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η μέθοδος PCA (Ανάλυση Κύριων Συνιστωσών), αποτελεί μία γραμμική μέθοδο συμπίεσης Δεδομένων η οποία συνίσταται από τον επαναπροσδιορισμό των συντεταγμένων ενός

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 7: Ομαδοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων Clustering Αλγόριθµοι Οµαδοποίησης Αντικειµένων Εισαγωγή Οµαδοποίηση (clustering): οργάνωση µιας συλλογής από αντικείµενα-στοιχεία (objects) σε οµάδες (clusters) µε βάση κάποιο µέτρο οµοιότητας. Στοιχεία

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Ζητήματα ηήμ με τα δεδομένα

Ζητήματα ηήμ με τα δεδομένα Ζητήματα ηήμ με τα δεδομένα Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών λώ Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: ειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 8: Ομαδοποίηση Μέρος B Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 9: Ομαδοποίηση Μέρος Γ Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το παρόν

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος

Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος Παρατηρήσεις για τη χρήση ενός κυκλικού διαγράμματος Χρησιμοποιείται μόνο όταν οι τιμές της μεταβλητής έχουν ένα σταθερό άθροισμα (συνήθως 100%, όταν μιλάμε για σχετικές συχνότητες) Είναι χρήσιμο μόνο

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων Άσκηση 1 α) Η δομή σταθμισμένης ένωσης με συμπίεση διαδρομής μπορεί να τροποποιηθεί πολύ εύκολα ώστε να υποστηρίζει τις

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση Γιάννης Θεοδωρίδης Οµάδα ιαχείρισης εδοµένων Εργαστήριο Πληροφοριακών Συστηµάτων http://isl.cs.unipi.gr/db

Διαβάστε περισσότερα

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6. Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εξόρυξη Γνώσης από χωρικά δεδοµένα (κεφ. 8) Γιάννης Θεοδωρίδης Νίκος Πελέκης http://isl.cs.unipi.gr/db/courses/dwdm Περιεχόµενα

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ ΥΠΕΥΘΥΝΟΣ ΚΑΘΗΓΗΤΗΣ Α. Ντούνης ΔΙΔΑΣΚΩΝ ΑΚΑΔ. ΥΠΟΤΡΟΦΟΣ Χ. Τσιρώνης ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ ΜΑΘΗΜΑ ΔΕΥΤΕΡΟ - Διανύσματα - Πράξεις με πίνακες - Διαφορικός λογισμός (1D) ΜΑΘΗΜΑΤΙΚΟ ΥΠΟΒΑΘΡΟ

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 12/10/2017

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα

Δύο κύριοι τρόποι παρουσίασης δεδομένων. Παράδειγμα Δύο κύριοι τρόποι παρουσίασης δεδομένων Παράδειγμα Με πίνακες Με διαγράμματα Ονομαστικά δεδομένα Εδώ τα περιγραφικά μέτρα (μέσος, διάμεσος κλπ ) δεν έχουν νόημα Πήραμε ένα δείγμα από 25 άτομα και τα ρωτήσαμε

Διαβάστε περισσότερα

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Προβλήματα, αλγόριθμοι, ψευδοκώδικας Προβλήματα, αλγόριθμοι, ψευδοκώδικας October 11, 2011 Στο μάθημα Αλγοριθμική και Δομές Δεδομένων θα ασχοληθούμε με ένα μέρος της διαδικασίας επίλυσης υπολογιστικών προβλημάτων. Συγκεκριμένα θα δούμε τι

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση

Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση Χειμερινό Εξάμηνο 2013-2014 Μετάδοση Πολυμεσικών Υπηρεσιών Ψηφιακή Τηλεόραση 5 η Παρουσίαση : Ψηφιακή Επεξεργασία Εικόνας Διδάσκων: Γιάννης Ντόκας Σύνθεση Χρωμάτων Αφαιρετική Παραγωγή Χρώματος Χρωματικά

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Γ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Χατζηλιάδη Παναγιώτα Ευανθία ΜΠΣ «ΜΕΘΟΔΟΛΟΓΙΑ ΒΪΟΙΑΤΡΙΚΗΣ ΕΡΕΥΝΑΣ, ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΚΛΙΝΙΚΗ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΙΑΤΡΙΚΗΣ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Ανάπτυξη λογισμικού σε γλώσσα προγραματισμού python για ομαδοποίηση

Διαβάστε περισσότερα

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης

Σύνοψη Προηγούμενου. Πίνακες (Arrays) Πίνακες (Arrays): Βασικές Λειτουργίες. Πίνακες (Arrays) Ορέστης Τελέλης Σύνοψη Προηγούμενου Πίνακες (Arrays Ορέστης Τελέλης telelis@unipi.gr Τμήμα Ψηφιακών Συστημάτων, Πανεπιστήμιο Πειραιώς Διαδικαστικά θέματα. Aντικείμενο Μαθήματος. Aντικείμενα, Κλάσεις, Μέθοδοι, Μεταβλητές.

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων» Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων» Οδηγίες: Σχετικά με την παράδοση της εργασίας θα πρέπει: Το κείμενο

Διαβάστε περισσότερα

Κεφ.11: Ευρετήρια και Κατακερματισμός

Κεφ.11: Ευρετήρια και Κατακερματισμός Κεφ.11: Ευρετήρια και Κατακερματισμός Database System Concepts, 6 th Ed. See www.db-book.com for conditions on re-use Κεφ. 11: Ευρετήρια-Βασική θεωρία Μηχανισμοί ευρετηρίου χρησιμοποιούνται για την επιτάχυνση

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων: Oμαδοποίηση: Μέρος Δ http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ ΥΠΟΥΡΓΕΙΟ ΕΘΝΙΚΗΣ ΠΑΙΔΕΙΑΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΙΝΣΤΙΤΟΥΤΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ Κ Υ Κ Λ Ο Υ Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ Κ Α Ι Υ Π Η Ρ Ε Σ Ι Ω Ν Τ Ε Χ Ν Ο Λ Ο Γ Ι Κ Η

Διαβάστε περισσότερα

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή

Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή Κεφάλαιο 8. Οπτικοποίηση Απαλοιφή Oι οπτικές επιδράσεις, που μπορεί να προκαλέσει μια εικόνα στους χρήστες, αποτελούν ένα από τα σπουδαιότερα αποτελέσματα των λειτουργιών γραφικών με Η/Υ. Τον όρο της οπτικοποίησης

Διαβάστε περισσότερα

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά και Πληροφορικής Μαθηματικά Πανεπιστήμιο ΙΙ Ιωαννίνων

Διαβάστε περισσότερα

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 7: Η επιλογή των πιθανοτικών κατανομών εισόδου Γαροφαλάκης Ιωάννης Πολυτεχνική Σχολή Τμήμα Μηχ/κών Η/Υ & Πληροφορικής Περιεχόμενα ενότητας Εισαγωγή Συλλογή

Διαβάστε περισσότερα

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της; 1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες (μορφές) της; Η δομή επανάληψης χρησιμοποιείται όταν μια σειρά εντολών πρέπει να εκτελεστεί σε ένα σύνολο περιπτώσεων, που έχουν κάτι

Διαβάστε περισσότερα

Επίλυση Προβλημάτων 1

Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων 1 Επίλυση Προβλημάτων Περιγραφή Προβλημάτων Αλγόριθμοι αναζήτησης Αλγόριθμοι τυφλής αναζήτησης Αναζήτηση πρώτα σε βάθος Αναζήτηση πρώτα σε πλάτος (ΒFS) Αλγόριθμοι ευρετικής αναζήτησης

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων

Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων ομές εδομένων Πανεπιστήμιο Πειραιώς Σχολή Τεχνολογιών Πληροφορικής και Επικοινωνιών Τμήμα Ψηφιακών Συστημάτων 2. Πίνακες 45 23 28 95 71 19 30 2 ομές εδομένων 4 5 Χρήστος ουλκερίδης Τμήμα Ψηφιακών Συστημάτων 21/10/2016

Διαβάστε περισσότερα

Ανάλυση κατά Συστάδες. Cluster analysis

Ανάλυση κατά Συστάδες. Cluster analysis Ανάλυση κατά Συστάδες Cluster analysis 1 H ανάλυση κατά συστάδες είναι µια µέθοδος που σκοπό έχει να κατατάξει σε οµάδες τις υπάρχουσες παρατηρήσεις χρησιµοποιώντας την πληροφορία που υπάρχει σε κάποιες

Διαβάστε περισσότερα

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση

Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Ενδεικτική πολυ-εργασία 1 - εφαρμογή στην υπολογιστική όραση Εντοπισμός ενός σήματος STOP σε μια εικόνα. Περιγράψτε τη διαδικασία με την οποία μπορώ να εντοπίσω απλά σε μια εικόνα την ύπαρξη του παρακάτω

Διαβάστε περισσότερα

Υπολογιστικά & Διακριτά Μαθηματικά

Υπολογιστικά & Διακριτά Μαθηματικά Υπολογιστικά & Διακριτά Μαθηματικά Ενότητα 1: Εισαγωγή- Χαρακτηριστικά Παραδείγματα Αλγορίθμων Στεφανίδης Γεώργιος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 13: Παραλλαγές Μηχανών Turing και Περιγραφή Αλγορίθμων

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 13: Παραλλαγές Μηχανών Turing και Περιγραφή Αλγορίθμων ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας Διάλεξη 13: Παραλλαγές Μηχανών Turing και Περιγραφή Αλγορίθμων Τι θα κάνουμε σήμερα Εισαγωγή Πολυταινιακές Μηχανές Turing (3.2.1) Μη Ντετερμινιστικές Μηχανές

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Ψευδοκώδικας. November 7, 2011

Ψευδοκώδικας. November 7, 2011 Ψευδοκώδικας November 7, 2011 Οι γλώσσες τύπου ψευδοκώδικα είναι ένας τρόπος περιγραφής αλγορίθμων. Δεν υπάρχει κανένας τυπικός ορισμός της έννοιας του ψευδοκώδικα όμως είναι κοινός τόπος ότι οποιαδήποτε

Διαβάστε περισσότερα

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων

Θεωρία Αποφάσεων ο. 4 Φροντιστήριο. Λύσεις των Ασκήσεων Θεωρία Αποφάσεων ο Φροντιστήριο Λύσεις των Ασκήσεων Άσκηση Έστω ένα πρόβλημα ταξινόμησης μιας διάστασης με δύο κατηγορίες, όπου για κάθε κατηγορία έχουν συλλεχθεί τα παρακάτω δεδομένα: D = {, 2,,,,7 }

Διαβάστε περισσότερα

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι

Εξόρυξη Δεδομένων. Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εξόρυξη Δεδομένων Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι 1 2 Συσταδοποίηση: Βασικές Έννοιες και Μέθοδοι Εισαγωγή στη Συσταδοποίηση Μέθοδοι Διαχωρισμού Ιεραρχικές Μέθοδοι Μέθοδοι Πυκνότητας Αξιολόγηση

Διαβάστε περισσότερα

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr I ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ i e ΜΕΡΟΣ Ι ΟΡΙΣΜΟΣ - ΒΑΣΙΚΕΣ ΠΡΑΞΕΙΣ Α Ορισμός Ο ορισμός του συνόλου των Μιγαδικών αριθμών (C) βασίζεται στις εξής παραδοχές: Υπάρχει ένας αριθμός i για τον οποίο ισχύει i Το σύνολο

Διαβάστε περισσότερα

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C

ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ. για τα οποία ισχύει y f (x) , δηλαδή το σύνολο, x A, λέγεται γραφική παράσταση της f και συμβολίζεται συνήθως με C Επιμέλεια: Κ Μυλωνάκης ΕΡΩΤΗΣΕΙΣ ΘΕΩΡΙΑΣ ΕΡΩΤΗΣΗ Τι ονομάζεται πραγματική συνάρτηση με πεδίο ορισμού το Α; Έστω Α ένα υποσύνολο του R Ονομάζουμε πραγματική συνάρτηση με πεδίο ορισμού το Α μια διαδικασία

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Εισαγωγή στη Στατιστική

Εισαγωγή στη Στατιστική Εισαγωγή στη Στατιστική Μετεκπαιδευτικό Σεμινάριο στην ΨΥΧΟΚΟΙΝΩΝΙΚΗ ΑΠΟΚΑΤΑΣΤΑΣΗ ΨΥΧΟΚΟΙΝΩΝΙΚΕΣ ΘΕΡΑΠΕΥΤΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ Δημήτρης Φουσκάκης, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΔΙΚΤΥO RBF. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΔΙΚΤΥO RBF Αρχιτεκτονική δικτύου RBF Δίκτυα RBF: δίκτυα συναρτήσεων πυρήνα (radial basis function networks). Πρόσθιας τροφοδότησης (feedforward) για προβλήματα μάθησης με επίβλεψη. Εναλλακτικό του MLP.

Διαβάστε περισσότερα

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - 02/07/08) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ Ονοματεπώνυμο:......... Α.Μ....... Ετος... ΑΙΘΟΥΣΑ:....... I. (περί τις 55μ. = ++5++. Σωστό ή Λάθος: ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ (Εξ. Ιουνίου - //8 ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ (αʹ Αν AB = BA όπου A, B τετραγωνικά και

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ

2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΔΟΜΗ ΕΠΑΝΑΛΗΨΗΣ 1) Πότε χρησιμοποιείται η δομή επανάληψης

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ 9/10/009 ΤΕΙ ΥΤΙΚΗΣ ΜΑΚΕ ΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ Η/Υ ΣΤΑΤΙΣΤΙΚΗ ΠΙΘΑΝΟΤΗΤΕΣ 3o ΜΑΘΗΜΑ Ι ΑΣΚΩΝ ΒΑΣΙΛΕΙΑ ΗΣ ΓΕΩΡΓΙΟΣ Emal: gasl@math.auth.gr Ιστοσελίδα Μαθήματος: users.auth.gr/gasl

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

Ενδεικτικές Ερωτήσεις Θεωρίας

Ενδεικτικές Ερωτήσεις Θεωρίας Ενδεικτικές Ερωτήσεις Θεωρίας Κεφάλαιο 2 1. Τι καλούμε αλγόριθμο; 2. Ποια κριτήρια πρέπει οπωσδήποτε να ικανοποιεί ένας αλγόριθμος; 3. Πώς ονομάζεται μια διαδικασία που δεν περατώνεται μετά από συγκεκριμένο

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Τι κάνει η Στατιστική Στατιστική (Statistics) Μετατρέπει αριθμητικά δεδομένα σε χρήσιμη πληροφορία. Εξάγει συμπεράσματα για έναν πληθυσμό. Τις περισσότερες

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: μέθοδοι μονοδιάστατης ελαχιστοποίησης Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 6 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 8. Συνεχείς Κατανομές Πιθανοτήτων Η Κανονική Κατανομή ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ B ΤΑΞΗΣ. χρησιμοποιήσουμε καθημερινά φαινόμενα όπως το θερμόμετρο, Θετικοί-Αρνητικοί αριθμοί.

ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ B ΤΑΞΗΣ. χρησιμοποιήσουμε καθημερινά φαινόμενα όπως το θερμόμετρο, Θετικοί-Αρνητικοί αριθμοί. ΑΝΑΛΥΤΙΚΟ ΠΡΟΓΡΑΜΜΑ B ΤΑΞΗΣ ΑΛΓΕΒΡΑ (50 Δ. ώρες) Περιεχόμενα Στόχοι Οδηγίες - ενδεικτικές δραστηριότητες Οι μαθητές να είναι ικανοί: Μπορούμε να ΟΙ ΑΚΕΡΑΙΟΙ ΑΡΙΘΜΟΙ χρησιμοποιήσουμε καθημερινά φαινόμενα

Διαβάστε περισσότερα

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER 4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER Σκοπός του κεφαλαίου είναι να παρουσιάσει μερικές εφαρμογές του Μετασχηματισμού Fourier (ΜF). Ειδικότερα στο κεφάλαιο αυτό θα περιγραφούν έμμεσοι τρόποι

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Εξαγωγή γεωγραφικής πληροφορίας από δεδομένα παρεχόμενα από χρήστες του

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί

ισδιάστατοι μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί ΚΕΦΑΛΑΙΟ 4: ισδιάστατοι γεωμετρικοί μετασχηματισμοί Πολλά προβλήματα λύνονται μέσω δισδιάστατων απεικονίσεων ενός μοντέλου. Μεταξύ αυτών και τα προβλήματα κίνησης, όπως η κίνηση ενός συρόμενου μηχανισμού.

Διαβάστε περισσότερα

= 7. Στο σημείο αυτό θα υπενθυμίσουμε κάποιες βασικές ιδιότητες του μετασχηματισμού Laplace, δηλαδή τις

= 7. Στο σημείο αυτό θα υπενθυμίσουμε κάποιες βασικές ιδιότητες του μετασχηματισμού Laplace, δηλαδή τις 1. Εισαγωγή Δίνεται η συνάρτηση μεταφοράς = = 1 + 6 + 11 + 6 = + 6 + 11 + 6 =. 2 Στο σημείο αυτό θα υπενθυμίσουμε κάποιες βασικές ιδιότητες του μετασχηματισμού Laplace, δηλαδή τις L = 0 # και L $ % &'

Διαβάστε περισσότερα

Πληροφορική 2. Αλγόριθμοι

Πληροφορική 2. Αλγόριθμοι Πληροφορική 2 Αλγόριθμοι 1 2 Τι είναι αλγόριθμος; Αλγόριθμος είναι ένα διατεταγμένο σύνολο από σαφή βήματα το οποίο παράγει κάποιο αποτέλεσμα και τερματίζεται σε πεπερασμένο χρόνο. Ο αλγόριθμος δέχεται

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA) ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Coponent Analysis, PCA) καθ. Βασίλης Μάγκλαρης aglaris@netode.ntua.gr www.netode.ntua.gr

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές Εαρινό εξάμηνο 2018-2019 μήμα Μαθηματικών ΑΠΘ Διδάσκουσα: Αγγελική Παπάνα Μεταδιδακτορική Ερευνήτρια Πολυτεχνική σχολή, Α.Π.Θ. & Οικονομικό μήμα, Πανεπιστήμιο

Διαβάστε περισσότερα

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 1. Σταύρος Παπαϊωάννου

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ. Μαθηματικά 1. Σταύρος Παπαϊωάννου ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΤΜΗΜΑ Μαθηματικά Σταύρος Παπαϊωάννου Ιούνιος 05 Τίτλος Μαθήματος Περιεχόμενα Χρηματοδότηση.. Σφάλμα! Δεν έχει οριστεί σελιδοδείκτης. Σκοποί Μαθήματος

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

H mèjodoc Sturm. Mˆjhma AkoloujÐec Sturm

H mèjodoc Sturm. Mˆjhma AkoloujÐec Sturm Mˆjhma 2 H mèjodoc Sturm Το θεώρημα του Sturm μας δίνει έναν τρόπο καταμέτρησης των πραγματικών ριζών ενός πολυωνύμου σε δοσμένο διάστημα που τηρεί κάποιες συνθήκες. Εισάγουμε την έννοια της ακολουθίας

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1 Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 4 ης διάλεξης 4.1. (α) Αποδείξτε ότι αν η h είναι συνεπής, τότε h(n

Διαβάστε περισσότερα

Σύντομες εισαγωγικές σημειώσεις για την. Matlab

Σύντομες εισαγωγικές σημειώσεις για την. Matlab Σύντομες εισαγωγικές σημειώσεις για την Matlab Δήλωση Μεταβλητών Για να εισάγει κανείς δεδομένα στη Matlab υπάρχουν πολλοί τρόποι. Ο πιο απλός είναι στη γραμμή εντολών να εισάγουμε αυτό που θέλουμε και

Διαβάστε περισσότερα

Εξαμηνιαία Εργασία Β. Κανονική Κατανομή - Επαγωγική Στατιστική

Εξαμηνιαία Εργασία Β. Κανονική Κατανομή - Επαγωγική Στατιστική 1 ΕΞΑΜΗΝΙΑΙΑ Β ΤΟ ΦΩΤΟΒΟΛΤΑΙΚΟ ΠΑΡΚΟ ΑΣΠΑΙΤΕ Τμήμα Εκπαιδευτικών Ηλεκτρολογίας Εργαστήριο Συλλογής και Επεξεργασίας Δεδομένων Διδάσκοντες: Σπύρος Αδάμ, Λουκάς Μιχάλης, Παναγιώτης Καράμπελας Εξαμηνιαία

Διαβάστε περισσότερα

Δομές Δεδομένων & Αλγόριθμοι

Δομές Δεδομένων & Αλγόριθμοι Θέματα Απόδοσης Αλγορίθμων 1 Η Ανάγκη για Δομές Δεδομένων Οι δομές δεδομένων οργανώνουν τα δεδομένα πιο αποδοτικά προγράμματα Πιο ισχυροί υπολογιστές πιο σύνθετες εφαρμογές Οι πιο σύνθετες εφαρμογές απαιτούν

Διαβάστε περισσότερα

4. Συντακτικό μιας γλώσσας είναι το σύνολο των κανόνων που ορίζει τις μορφές με τις οποίες μια λέξη είναι αποδεκτή.

4. Συντακτικό μιας γλώσσας είναι το σύνολο των κανόνων που ορίζει τις μορφές με τις οποίες μια λέξη είναι αποδεκτή. ΑΕσΠΠ-Κεφ6. Εισαγωγή στον προγραμματισμό 1 ΣΩΣΤΟ ΛΑΘΟΣ 1. Οι γλώσσες προγραμματισμού αναπτυχθήκαν με σκοπό την επικοινωνία ανθρώπου μηχανής. 2. Αλγόριθμος = Πρόγραμμα + Δομές Δεδομένων 3. Ένα πρόγραμμα

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012 ΔΕ. ΙΟΥΝΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η ( μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάσει το συντελεστή συσχέτισης. (γράψτε ποιο χαρακτηριστικό

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium Iii Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium Iii Η Κανονική Κατανομή Λέμε ότι μία τυχαία μεταβλητή X, ακολουθεί την Κανονική Κατανομή με παραμέτρους και και συμβολίζουμε X N, αν έχει συνάρτηση πυκνότητας

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 7. Τυχαίες Μεταβλητές και Διακριτές Κατανομές Πιθανοτήτων ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Διαβάστε περισσότερα

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014

ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014 ΜΕΓΙΣΤΙΚΟΣ ΤΕΛΕΣΤΗΣ 18 Σεπτεμβρίου 2014 Περιεχόμενα 1 Εισαγωγή 2 2 Μεγιστικός τελέστης στην μπάλα 2 2.1 Βασικό θεώρημα........................ 2 2.2 Γενική περίπτωση μπάλας.................. 6 2.2.1 Στο

Διαβάστε περισσότερα